強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
雑にすら読めない…nomadoor.icon
雑に読んでいくwogikaze.icon
(ただし数式はわからない)
https://gyazo.com/2a664434eca859aa90bfdabd23430b8e
強化学習の簡単な理解
Agent(操作対象)とEnviroment(環境)があり、Agentを良い感じに動かす方法を探す
応用例:ロボット操作
強化学習の特性p16
遅延報酬
探索と活用のトレードオフ
情報の一部しか観測できない
行動ごとに行動価値をテーブルにまとめ、最も報酬が大きいものを選ぶ
前方観測
後方観測
テーブル形式学習の限界/関数近似による強化学習p36~
行動空間が連続のときテーブルだと学習が進まないのを解決
第二部:深層強化学習p46
工夫p51
ベンチマークp55
行動選択と価値評価で分ける
価値を正しく評価できる
学習効果が高い経験再生を優先的にする
行動で得られる報酬を分布でモデル化する
C51凄いな、試してくるwogikaze.icon
学習待ち
https://gyazo.com/326ee876948e14383a3dcc125a9d5a6c
アンビリーバボーwogikaze.icon
ピーポーピーポーwogikaze.icon
39it/s出てるな...やはり画像生成とかLLMのタスクが重すぎるんだ
探索をさせる場合、大規模な探索をするにはε-greedy法では単調すぎる
Neural networkのパラメータそのものにノイズを与える事で長期的な影響を与える
Rainbow/discordwiki/rainbow.iconp77 https://gyazo.com/78c21d0566424b3858a89d83314b6c56
グラフの色が頭悪くてすきwogikaze.icon
Actor-Criticを使った
経験再生を廃止
ActorをCPU,リプレイバッファから優先度をつけて学習するLearnerをGPU上で動かす
報酬の獲得が難しい or 探索空間が大きい
テーブル形式学習と同じ問題(状態が多いor連続だとカウントが0になる)が起きる
予測誤差により内発的報酬を生成
この辺の理解できないwogikaze.icon
https://gyazo.com/6b0f4283493e38088415f89098154608
そうはならんやろwogikaze.icon
環境モデル学習+木探索
Atariの57ゲームで人間のスコアを超える
人間の棋譜データを使わずにAlphaGo以上
計算量の暴力